ساختارعصبی تقریب تابع مبتنی بر dignet برای یادگیری تقویتی

پایان نامه
چکیده

یادگیری تقویتی عبارت است از قالب بندی یک مسئله به فرم یادگیری از طریق تعامل برای رسیدن به هدف. زمانی که فضای حالات و یا کنش ها پیوسته و یا خیلی بزرگ شود استفاده از عناصر حافظه برای نگه داری ارزش حالات بسیار زیاد خواهد شد. این مسئله در رابطه با زمانی که در طول یادگیری ارزش کنش ها به دست آورده می شود، بحرانی تر خواهد شد. علاوه بر حافظه مصرفی مسئله ، داده و زمان لازم برای پر کردن آنها نیز مهم است. بنابراین مسئله تعمیم پیش خواهد آمد.روش پیشنهاد شده برای مسائل یادگیری تقویتی با فضای پیوسته ای از حالت ها و کنش ها مناسب است. در این روش از شبکه عصبی خودسازمان ده dignet برای نمایش فضای حالت و کنش استفاده شده است.استفاده از این شبکه سبب می شود در یک فضای پیوسته، عامل بتواند با استفاده از یک حافظه مصرفی مناسب ،میزان داده و زمان قابل قبول به هدف دست یابد.در پیشنهاد این پایان نامه مفاهیم اساسی یک مسئله یادگیری تقویتی و همچنین یک شبکه عصبی خودسازمان ده dignet بررسی می شود، و ساختار این شبکه به عنوان یک روش خوشه بندی کارا برای حل چالش پیوستگی فضای حالات و کنش ها ،در مسئله یادگیری تقویتی پیشنهاد می شود و کارایی آن بررسی و مقایسه می شود.

۱۵ صفحه ی اول

برای دانلود 15 صفحه اول باید عضویت طلایی داشته باشید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

تقریب تابع ارزش عمل با استفاده از شبکه توابع پایه شعاعی برای یادگیری تقویتی

مشکل تنگنای ابعاد، یکی از چالش هایی است که کاربرد الگوریتم های یادگیری تقویتی گسسته را در مورد مسائل کنترلی واقعی که دارای فضای حالت و عمل بزرگ و یا پیوسته می باشند محدود نموده است. ترکیب روش های آموزشی گسسته با تقریب زننده های تابعی برای حل این مشکل چندی است مورد توجه محققان قرارگرفته است. در همین راستا در این مقاله یک الگوریتم جدید یادگیری تقویتی عصبی (NRL) بر مبنای معماری نقاد- تنها معرف...

متن کامل

کنترل‌کننده مقاوم تطبیقی بار فرکانس مبتنی بر یادگیری تقویتی برای یک سیستم قدرت به‌هم‌پیوسته شامل SMES

هدف از این مقاله استفاده از یادگیری تقویتی برای طراحی کنترل‌کننده‌های PID و SMES مقاوم و تطبیقی برای کنترل بار فرکانسی در یک سیستم قدرت دو ناحیه‌ای حرارتی است. ابتدا تنظیم پارامترهای کنترل‌کننده‌های PID و SMES به‌صورت یک مسئله بهینه‌سازی مدل‌شده توسط الگوریتم تدریس - یادگیری اصلاح‌شده حل می‌شود. سپس عملکرد هم‌زمان آن‌ها با استفاده از الگوریتم پیشنهادی مبتنی بر یادگیری تقویتی بهینه می‌گردد. کنتر...

متن کامل

روشی نوین برای یادگیری تقویتی فازیِ باناظر برای ناوبری ربات

: استفاده از یادگیری باناظر در ناوبری ربات های متحرک، با چالش های جدی از قبیل ناسازگاری و اختلال در داده ها، مشکل جمع آوری نمودن داده آموزش و خطای زیاد در داده های آموزشی مواجه می باشد. قابلیت های یادگیری تقویتی همچون عدم نیاز به داده آموزشی و آموزش تنها با استفاده از یک معیار اسکالر راندمان باعث کاربرد آن در ناوبری ربات شده است. از طرفی یادگیری تقویتی زمانبر بوده و دارای نرخ شکست های بالا در م...

متن کامل

اثبات رابطه سرگئی وینزکی برای تقریب تابع توزیع نرمال استاندارد

در بین تمام توزیع‌های آماری توزیع نرمال استاندارد مهم‌ترین و کاربردی‌ترین توزیع آماری بوده و محاسبه سطح زیر منحنی چگالی و تابع توزیع آن مورد نیاز است. ضابطه این تابع به‌صورت یک انتگرال معین بیان می‌شود، ولی متاسفانه تابع اولیه آن دارای شکل بسته و تحلیلی نیست، لذا باید آن را تقریب زد. در این مقاله رابطه تقریبی سرگئی وینزکی با یک روش جدید اثبات می‌شود، سپس این تقریب با تغییراتی در رابطه آن بهبود ...

متن کامل

پیش‌بینی روند حرکتی قیمت سهام با استفاده از XCS مبتنی بر الگوریتم ژنتیک و یادگیری تقویتی

پیشرفت‌ها در حوزۀ هوش مصنوعی و یادگیری ماشین به‌خصوص درزمینۀ محاسبات تکاملی نه‌تنها ما را قادر به تجزیه‌وتحلیل مؤثرتر داده‌ها نموده است، بلکه این امکان را فراهم ساخته که از آن‌ها برای فهم هرگونه الگوی زیربنایی بازارهای مالی استفاده گردد. اقتصاددانان، آماردانان و مدرسان امور مالی همواره علاقه‌مند به توسعه و آزمایش مدل‌های رفتاری قیمت سهام بوده‌اند. XCS سامانه‌ای مرکب از الگوریتم ژنتیک و یادگیری ...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

دانشگاه تربیت معلم - تهران - دانشکده فنی

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023